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摘要 :【 目的 总 结 国内 外 时 态 信息 检索 人 研究 现状 以 期 为 相关 学 者 更 好 地 把 握 时 态 信息 检索 研究 问题 提供 理论 
基础 。[ 文献 范围 ] 在 Google Scholar 中 分 别 以 检索 式 “Temporal Information” 与 “时 态 信 息 ”* 且 不 限定 时 间 范 围 地 
进行 文献 检索 ， 获 得 部 分 相关 文献 后 ， 再 结合 追溯 法 最 终 得 到 92 篇 相关 文献 。[ 方法 】 基 于 文献 调研 与 归纳 总 
结 方法 ， 分 别 从 文档 中 时 态 信息 抽取 、 查 询 中 时 态 信息 识别 和 时 间 感 知 排序 三 方面 对 时 态 信息 检索 的 相关 研究 
进行 综述 与 评述 。[【 结果 ] 研究 发 现时 态 信息 检索 研究 存在 着 如 下 问题 和 挑战 : 国外 对 时 态 检索 研究 比较 多 ， 而 
国内 的 相关 研究 甚 少 ; 利用 表征 时 间 信 息 的 实体 与 事件 演化 信息 识别 文档 关注 时 间 的 相关 研究 不 足 ; 缺乏 对 非 
周期 变化 查询 的 意图 预测 ; 时 态 信息 检索 模型 实验 的 可 重复 性 有 竺 提高 。[ 局 限 】 未 对 该 领域 的 文档 采集 、 文 档 
索引 以 及 相关 应 用 进行 文献 综述 。[ 结论 ] 构建 标准 化 的 评测 数据 集 以 及 无 参数 时 态 信 息 检 索 模 型 将 是 时 态 信 息 
检索 领域 的 未 来 方向 研究 。 
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1 引 言 索 模型 常常 忽略 了 查询 中 时 间 属 性 是 否 与 文档 时 态 属 
性 匹配 这 一 特定 条 件 。 为 解决 此 问题 ，Temporal 

随 着 网 络 中 数字 资源 的 迅速 增长 , 每 天 都 有 大 量 Information Retrieval(T-IR) 应 运 而 生 , 其 目标 是 利用 查 

新 文档 生成 和 旧 文 档 更 新 , 产生 了 诸如 网 络 存档 (Web 。” 询 与 文档 中 时 态 信 息 来 提高 最 终 检 索 准 确 度 。 因 国内 
Archives)、 新 闻 报告 、 博 客 与 个 人 邮件 等 与 时 间 因 素 FA EME Temporal Information”* 相 关 人 研究 时 , 将 
有 关 的 数据 集 。 因 此 ， 如何 从 此 类 数据 集中 为 用 户 提 ” 其 普遍 翻译 为 “< 时 态 信 息 ”， 故 笔者 在 本 文中 将 


供 及 时 可 靠 信 息 是 当前 检索 系统 的 首要 任务 。 然 而 ， “Temporal Information Retrieval” 译 为 “时 态 信息 检 索 ”。 
基于 关键 词 匹配 的 传统 检索 模型 难以 从 时 间 数 据 集中 时 态 信息 检索 在 其 他 相关 任务 (如 文档 探索 、 相 似 


为 用 户 返 回 满意 的 检索 结果 , 其 主要 原因 在 于 : HOO o 性 搜索 和 信息 聚 类 等 ) 也 起 着 重要 作用 ,此 研究 引起 了 
提交 的 查询 与 时 间 相 关 ,， 如 Metzle 等 器 通过 对 AOL 查 “信息 检索 及 其 相关 领域 的 广泛 关注 。 其 中 ,信息 检索 
询 日 志 分 析 得 出 , 约 1.5% 的 查询 具有 显 式 时 间 意 图 。 领域 的 一 些 重要 国际 会 议 (如 SIGIR, WWW., CIKM, 
(如 查询 “SIGIR 2016”), Z^ 7% 的 查询 包含 隐 式 时 间 意 — NTCIR-11 与 NTCIR-12 等 ) 对 时 态 信息 检索 相关 研究 
图 (如 查询 “北京 奥运 会 ”); 其 次 , 时 间 数 据 集中 除 存储 给予 了 高 度 重视 ,使 其 成 为 近年 来 网 络 信息 检索 领域 
了 最 新 文档 外 , 也 存储 了 文档 在 其 他 时 间 段 的 不 同形 。” 探讨 的 热点 话题 。 综 合 已 有 研究 ,， 时 态 信息 检 索 的 研 
式 ， 故 数据 集中 文档 也 具有 时 间 属 性 。 而 传统 信息 检 ， ” 究 领 域 主要 包括 : 文档 采集 、 文 档 索 引 、 文 档 与 查询 
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中 时 态 信息 抽取 ,时 态 感 知 排序 以 及 T-IR 的 相关 应 用 
如 时 态 文档 的 自动 摘要 、 聚 类 与 自动 分 类 等 上 ]。 由 于 
时 间 与 精力 有 限 ， 笔者 难以 对 其 所 有 相关 研究 进行 文 
献 综 述 , 因此 只 是 基于 传统 信息 检索 的 角度 ， 从 文档 
中 时 态 信息 抽取 、 查 询 中 时 态 信息 识别 与 时 态 感知 排 
序 三 个 方面 对 国内 外 时 态 信息 检索 的 相关 研究 进展 进 
行 总 结 与 评述 。 

笔者 在 Google Scholar 中 分 别 以 检索 式 “Temporal 
Information” 与 “时 态 信息 ” 且 不 限定 时 间 范 围 地 进行 文 
献 检 索 ， 再 根据 研究 主题 进行 筛选 后 得 到 部 分 相关 文 
献 。 然 后 , 在 这 些 相关 文献 基础 上 , 进一步 利用 追溯 法 最 
终 共 获得 92 篇 文献 。 其 中 , 英文 文献 86 篇 ， 而 中 文 文 
献 6 篇 .本 文 尝试 通过 较 全 面 的 文献 调研 对 时 态 信息 检 
索 这 一 人 研究 课题 的 国内 外 人 研究 进展 进行 较为 系统 的 分 
析 评 述 ， 以 期 为 相关 学 者 更 好 地 把 握 时 态 信息 检索 研 
究 问 题 提 供 理论 基础 。 


2 文档 中 时 态 信息 抽取 


文档 中 主要 包括 以 下 四 类 时 态 信息 包 : 

四 日 期 , 表示 能 在 日 历 上 查找 到 的 时 间 表 达 式 ， 如 
“2016 年 7 月 23 日 "、“ 上 周一 ”等 ; 

Qu, 表示 一 天 中 某 个 具体 或 者 模糊 时 间 段 ， 如 “18 
点 20 分 ”"、“ 中 午 ”"、“]1 月 2 上 日 的 上 午 ”等 ; 

@ 时 间 区 间 ， 表示 某 个 具体 时 间 段 ， 如 “24 PA”. “AM 
2013 年 至 2017 年 "等 ; 

@ 时 间 集 合 ， 如 “每 隔 两 周 ”、、“ 一 周 两 次 ”等 。 

其 中 , 文档 中 时 态 信 息 抽取 主要 包括 文档 时 态 元 
数据 抽取 与 文档 关注 时 态 信 息 两 方面 
2.1 文档 时 态 元 数据 抽取 

文档 时 态 元 数据 主要 包括 文档 的 创建 时 态 信息 、 
采集 时 态 信息 和 最 新 修改 时 态 信 息 ; 文档 的 采集 时 态 
与 最 新 修改 时 态 信 息 常 保留 在 网 络 服务 器 中 ,可 直接 
获取 外 ,因此 , 文档 创建 时 态 信息 抽取 是 时 态 元 数据 抽 
取 研 究 的 主要 内 容 ,主要 有 基于 内 容 和 链接 结构 的 两 
类 抽取 方法 。 

(1) 基于 内 容 的 文档 创建 时 态 信 息 抽取 主要 是 借 
助 文档 中 词 信 息 来 识别 其 创建 时 间 ， 具 体 实现 思想 为 : 
首先 对 文档 创建 时 间 的 可 能 时 间 段 进行 预定 义 ， 再 根 
据 这些 时 间 段 对 数据 集 进行 分 类 ,最 后 利用 数学 模型 
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数据 分 析 与 知识 发 现 
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计算 文档 中 词 在 各 个 时 间 段 文档 集合 中 的 出 现 情况 ， 
以 此 来 确定 该 文档 的 创建 时 间 。 其 中 ， 和 常用 的 数据 模 
型 为 时 间 语 言 模型 中 和 时 间 炉 中 。 除 此 之 外 , 一 些 学 
者 也 尝试 采用 其 他 方法 ， 如 Chambers "提出 从 文档 所 
包含 的 时 态 表达 式 中 抽取 特征 来 训练 分 类 器 以 识别 文 
档 创建 时 间 ， 其 实验 结果 表明 该 方法 的 效果 优 于 基于 
数学 模型 的 方法 , 但 缺陷 在 于 只 能 识别 该 文档 创建 于 
哪 一 年 , 无 法 对 更 加 细 粒 度 的 时 间 信 息 加 以 识别 ; 
Kotsakos 等 (在 假设 内 容 相似 文档 之 间 创 建 时 间 相 近 
的 基础 上 ,尝试 在 不 给 定时 间 粒 度 的 情况 下 对 文档 创 
建 时 间 信 息 进行 识别 ,， 即 利用 统计 学 方法 分 别 计算 两 
文档 之 间 重 要 词 的 突 发 区 间 , 再 将 这 些 突 发 区 间 之 间 
的 重 有 至 区 域 视 为 文档 的 创建 时 间 段 ; Garcia-Fernandez 
等 网 借 助 外 部 知识 资源 (如 Google Book N-gram, 
Wikipedia 以 及 词 源 学 的 背景 知识 ), 采用 监督 式 与 非 
监督 式 方 法 来 识别 旧 法 语 新 闻 报 纸 的 出 版 时 间 ; 
Tilahun 等 上 利用 与 文献 [10-11] 相 同 的 方法 识别 了 中 
世纪 时 期 拉丁 文英 国 完 法 的 创建 时 间 。 总 之 ,基于 内 
容 的 方法 为 当前 文档 创建 时 态 信息 抽取 的 主流 方法 ， 
其 优点 在 于 简单 且 易于 实现 ,而 缺点 是 最 终 识别 的 准 
确 度 依 赖 于 对 数据 集 时 间 范 围 划分 的 准确 度 ， 且 可 识 
别 的 文档 创建 时 间 范 围 取决 于 数据 集 所 包含 的 时 间 范 
围 。 另 外 ,以 上 研究 都 假设 每 个 文档 都 只 存在 着 一 个 
特定 的 创建 时 间 , 而 Zhao 等 09 认 为 这 种 假设 只 是 存 
在 于 新 闻 数 据 集 中 , 在 真实 网 络 环境 中 , 不 同文 档 的 
不 同 部 分 创建 时 间 可 能 不 一 样 ， 如 博客 数据 集 ， 其 子 
文档 (博客 条 目 ) 会 有 不 同 的 创建 时 间 。 于 是 , 通过 对 
ClueWeb 12 数据 集 "中 每 个 文档 的 每 个 段落 进行 时 间 
标注 ， 实 验 结果 发 现 , 约 三 分 之 二 的 文档 中 子 文档 的 
创建 时 间 不 同 , 故 如 何 进一步 对 文档 中 子 文档 的 创建 
时 间 识 别 将 是 后 续 研 究 工作 中 需 探讨 的 问题 。 

(2) 基于 链接 结构 的 文档 创建 时 态 信息 抽取 方法 
的 主要 思想 为 : 首先 借助 文档 之 间 链 接 结构 构建 图 模 
型 ， 再 通过 相关 模型 遍历 图 ,最 后 利用 图 中 与 某 文 档 
相 邻接 的 文档 的 创建 时 态 信息 来 识别 该 文档 的 创建 时 
aS, 如 Nunes 等 中 与 Salah 等 ("构建 图 模型 后 , 在 采用 
一 步 传递 方法 (One-step Propagatiom) 遍 历 图 的 基础 上 ， 
Nunes 等 所 将 邻接 文档 中 最 后 修改 时 间 的 平均 值 作 为 


该 文档 的 创建 时 间 , Salah 等 ("将 邻接 文档 中 最 新 创建 
时 间作 为 此 文档 的 创建 时 间 ; Prokhorenkova 455/551] 
采用 一 步 式 或 多 步 式 (Multi-step Propagation) 传 播 模 式 
遍历 文档 图 模型 来 识别 文档 创建 时 间 ， 其 实验 结果 表 
H, 基于 多 步 式 传递 方法 优 于 一 步 式 传递 方法 。 总 之 ， 
基于 非 文档 内 容 方法 的 主要 优点 是 不 需 预 先 确 定 文档 
可 能 所 属 的 时 间 范 围 , 可 识别 任意 时 间 段 文档 的 创建 
时 间 , 但 该 方法 识别 的 准确 度 依赖 于 其 他 文档 时 态 信 
息 的 可 获取 性 与 准确 性 。 
2.2 ”文档 关注 时 态 信息 抽取 

文档 关注 时 态 信息 是 指 文档 内 容 所 涉及 的 时 间 区 
间 ， 主 要 通过 识别 与 排序 文档 中 时 态 表达 式 来 获得 。 
其 中 ,时 态 表 达 式 主要 包括 显 式 (Explicit)、 隐 和 式 
(Implicit) 与 相对 (Relative) 三 类 1。 显 式 时 态 表达 式 表 
示 某 一 具体 时 间 点 , 其 时 态 粒 度 可 以 是 某 年 、 某 月 或 
者 具体 某 日 ,如 表达 式 “2015”、“2015 年 10 月 ”与 “2015 
年 10 月 1 H^; 隐 式 时 态 表 达 式 是 一 些 借 用 假日 或 者 
事件 名 称 表达 相关 时 间 信 息 ， 如 “Mothers’” Day 2016”, 
此 类 表达 式 在 时 间 轴 上 固定 , 需 对 其 进一步 标准 化 为 
有 具体 时 间 “2016 4E 5 H 8 日 ”相对 时 态 表达 式 需 借助 
参考 时 态 信 息 ( 如 文档 内 容 或 者 文档 创建 时 间 ) 才 能 得 
知 其 所 表达 的 具体 时 态 信 息 ， 如 表达 式 “ 今 天 ”与 “上 周 
一 ”。 时 态 表达 式 识别 研究 在 信息 抽取 相关 的 国际 会 议 
如 SemEval 、 Message Understanding Conference 
(MUC)、Automated Content Extraction (ACE) 上 进行 了 
广泛 探讨 ， 其 相关 技术 与 方法 比较 成 熟 , 且 已 有 相关 
的 开源 工具 可 供 直 接 使 用 ,如 TempEx"", GUTime" , 
HeidelTimeP?!! Ej SuTime??^& , 

时 态 表达 式 排序 的 相关 研究 有 : Strétgen HA 
合 考 虑 文档 、 数 据 集 与 查询 等 特征 ,为 文档 中 时 态 表 
达 式 进行 排序 ; Jatowt 等 RI 把 与 文档 内 容 相关 事件 的 
发 生 时 间 段 作为 该 文档 的 关注 时 间 ,， 首先 利用 聚 类 算 
法 对 一 些 新 闻 网 页 进行 聚 类 , 再 根据 每 个 类 簇 内 容 与 
文档 内 容 的 相似 性 ,， 最终 将 每 个 类 簇 中 所 包含 事件 的 
平均 时 间 段 作为 该 文档 的 关注 时 间 ; Jatowt 等 ”为 避 
免 时 间 表 达 式 与 文档 关注 时 间 之 间 的 误差 , 借助 新 闻 
语 料 集合 , 采用 时 间 焙 与 时 间 峰 度 两 指标 衡量 文档 中 
词 与 某 新 闻 语 料 的 相关 度 , 最 后 将 相关 度 最 大 的 新 闻 
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语 料 时 间作 为 该 文档 的 关注 时 间 ; Jatowt 等 中 首先 从 
新 闻 数 据 集 抽 取 与 时 态 有 直接 关联 的 词 ， 再 通过 统计 
学 方法 综合 考虑 与 文档 中 词 相 关 的 时 态 信息 而 最 终 确 
定 该 文档 的 关注 时 态 ,该 方法 的 优点 在 于 能 对 不 包含 
或 只 包含 少量 时 态 表 达 式 的 文档 进行 关注 时 间 识 别 ; 
Zhao 等 R711 首 先 对 新 闻 文 档 中 时 态 表 达 式 进行 抽取 与 
归 一 化 处 理 , 再 提出 关系 模型 (Relation Model) 构 建文 
档 主 题 与 时 态 表达 式 之 间 关 系 ， 以 此 识别 新 闻 文档 中 
的 主题 时 间 ; Kumar 等 "首先 在 维基 百科 人 物 自传 数 
据 集中 利用 监督 式 语言 模型 训练 词 随时 间 ( 年 份 ) 的 分 
布 概率 , 再 以 此 识别 非 人 物 自传 Wikipedia 网 页 的 关 
注 时 间 ( 年 份 ), 以 上 研究 都 是 基于 文档 级 别 ,， 也 有 学 者 
探讨 如 何 抽 取 与 词 相 关 的 时 态 信 息 ， 如 Spitz 等 的 基 
于 Wikipedia 语 料 集 ， 根据 词 与 时 态 表达 式 (如 某 天 、 
某 月 或 某 年 ) 在 文档 同一 句子 中 共 现 情况 构建 加 权 二 
部 共 现 图 ， 再 利用 类 似 协同 过 滤 算 法 为 每 个 词 识 别 相 
关 时 间 信 息 或 者 为 相关 时 间 返 回 词 信 息 , 该 研究 以 期 
能 为 相关 研究 如 文档 关注 时 间 抽 取 和 时 态 文档 聚 类 等 
提供 一 定 技术 基础 。 

相对 于 文档 元 数据 抽取 来 说 , 文档 关注 时 态 信息 
抽取 过 程 涉及 到 对 文档 内 容 语义 理解 过 程 ， 其 难度 相 
对 较 高 。 另 已 有 文档 关注 时 态 信息 抽取 方法 大 多 只 是 
停留 在 对 三 类 时 态 表 达 式 的 识别 与 排序 ,忽略 了 文档 中 
表征 时 间 信 息 的 实体 以 及 事件 两 类 重要 因素 请” 故 如 
何 进一步 通过 跟踪 实体 与 事件 随时 间 的 演化 信息 来 进 
一 步 提高 文档 关注 时 态 信息 识别 准确 度 将 是 未 来 研究 
的 一 个 重要 趋势 。 


3 查询 中 时 态 信息 识别 


查询 是 用 户 信息 需 求 的 简化 形式 史 4， 可 能 包含 与 
文档 中 类 似 的 时 态 信息 。 通 过 对 查询 的 处 理 与 分 析 ， 
有 助 于 判断 查询 中 是 否 具有 时 态 意 图 以 及 用 户 随 时 间 
变化 可 能 感 兴趣 的 潜在 查询 子 主题 。 基 于 此 , 本 文 主 
要 对 时 态 意图 识别 与 查询 动态 子 主题 识别 相关 研究 进 
行 综述 。 
3.1 时 态 意 图 识别 

时 态 意图 识别 旨 在 判断 用 户 提交 某 查 询 后 是 否 想 
获得 特定 时 间 段 的 信息 ,综合 已 有 研究 ， 主 要 分 为 
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给 定 类 目 体 系 下 的 时 态 意图 识别 与 不 给 定 类 目 体 系 的 
时 态 意 图 识别 。 

(1) 给 定 类 目 体 系 下 的 时 态 意图 归 类 与 识别 。 首 
先 确定 查询 中 可 能 包含 的 时 态 意图 类 别 ， 再 利用 相关 
方法 对 查询 进行 自动 归 类 。 根 据 所 依赖 的 数据 集 ， 此 
类 研究 又 可 分 为 基于 日 志 与 文档 集 两 类 方法 。 基 于 日 
志方 法 的 主体 思想 是 从 查询 日 志 中 选取 分 类 特征 ， 以 
此 实现 各 时 态 意图 类 别 的 区 分 。 相 关 研 究 主 要 有 : 
Vlachos 等 5 将 查询 可 能 具有 的 时 态 意 图 归 为 周期 查 
询 、 季 市 性 查询 与 大 峰值 三 类 , 旦 首次 提出 利用 突 发 
点 识别 方法 对 这 三 类 查询 自动 归 类 ; Parikh 等 9 基于 
查询 中 所 包含 突 发 点 的 形状 以 及 停留 时 间 , 利用 突 发 
点 识别 方法 对 时 态 查 询 进行 自动 识别 ; Kulkarni 等 
分 别 从 查询 中 包含 的 波峰 数 、 波 峰 形 状 、 波 峰 趋势 以 
及 周期 性 对 时 态 查询 进行 归 类 ; Zhang 等 中 采 用 机 器 
学 习 方 法 ， 从 查询 日 志 中 选取 特征 判断 某 查 询 是 否 与 
公共 事件 、 公 共 节 日 或 者 电视 节目 等 相关 ; Konig 等 9 
借助 机 器 学 习 思 想 判 断 查 询 点 击 垂直 新 闻 搜 索 结 果 的 
楷 率 ,以 此 判断 该 查询 结果 中 是 否 应 该 融合 新 闻 网 页 ; 
Ren SEM 将 查询 中 可 能 包含 的 时 态 模式 归 类 为 稳定 
生 查 询 (Stable Queries)、 一 次 性 突 发 查询 (One-time 
Burst Queries) 、 周 期 性 多 次 突 发 查询 (Periodic 
Multitime Burst Queries) 与 非 周 期 多 次 突 发 查询 
(Aperiodic Multitime Burst Queries)， 基 于 时 间 序 列 ， 
根据 查询 在 查询 日 志 中 的 搜索 量 选取 分 类 特征 , 利用 
SVM 分 类 训练 分 类 模型 以 此 对 4 类 查询 自动 区 分 。 

基于 文档 集 方法 的 主体 是 从 网 络 文档 集 或 者 外 部 
知识 资源 如 Wikipedia 中 选取 分 类 特征 ， 以 此 实现 各 
类 别 时 态 意图 的 有 效 区 分 。 根 据 所 采用 的 分 类 体系 ， 
此 类 研究 又 可 细 分 以 下 三 方面 : 

DAF Jones 的 时 态 意 图 分 类 体系 。Jones AFP RE 
询 返 回 文档 的 时 态 属 性 ,将 其 分 为 时 间 非 歧义 性 (发 生 在 特 
定时 间 )、 时 间 歧 义 (发 生 在 几 个 可 能 的 时 间 段 ) 和 时 间 查 询 
(任意 时 间 )， 且 利用 结果 文档 集 为 查询 构建 时 间 档 案 , 再 采 
用 决策 树 方法 实现 三 类 查询 的 自动 分 类 ; 基于 该 分 类 体系 ， 
Campos 等 中] 从 网 络 文档 片段 的 标题 、 文 本 内 容 以 及 链接 信 
息 中 选取 特征 实现 时 间 查询 的 自动 分 类 。 

OAF NTCIR 会 议 中 所 提供 的 时 态 意图 分 类 体系 。 
NTCIR-11/9) 与 NTCIR-12[ 的 会 议 中 时 态 获取 子 任务 
(Temporalia) 将 查询 中 可 能 包含 的 潜在 时 态 意图 分 为 当前 
(Recency: 获得 当前 事件 的 相关 信息 )、 过 去 (Past: 获得 过 去 
相关 事件 信息 )、 将 来 (Future: 查询 预测 或 者 预订 的 相关 事 
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件 ) 与 非 时 间 (Atemporal: 如 导航 类 查询 ) 意 图 。 基 于 此 分 类 体 
系 的 主要 相关 工作 有 : Yu 等 中 ] 通 过 选取 时 间 间 隙 特征 ( 即 查 
询 提 交 时 间 与 查询 关注 时 间 之 间 的 时 间 差 )、 词 时 态 特 征 和 
命名 实体 特征 ， 再 分 别 采 用 半 监 督 式 和 监督 式 线性 分 类 器 
训练 分 类 模型 ， 最 终 实 现时 间 查 询 的 自动 分 类 ， 且 取得 了 较 
好 的 实验 效果 ; Zhao $M 先 利 用 维基 百科 中 概念 (Wikipedia 
Concepts) 扩展 查询 中 可 能 包含 的 概念 信息 ， 再 利用 
Wikipedia 网 页 浏览 日 志 信 息 抽 取 与 查询 概念 相关 的 时 间 序 
列 数据 ， 以 此 为 获得 查询 特征 信息 并 实现 各 时 态 意图 的 自 
动 识别 ; Pei 等 "选取 显示 特征 (查询 上 下 文 词 特征 ) 、 隐 式 
特征 (利用 Google Trends 进行 时 间 序 列 分 析 而 得 到 的 时 间 间 
隙 特征 ) 以 及 文本 特征 ( 词 在 不 同时 态 意 图 类 别 中 的 概率 分 
布 以 及 词 的 时 态 标 记 信息 ) 选 取 分 类 特征 训练 分 类 器 ; Fernando 
等 [四 选取 查询 相关 特征 ， 如 查询 中 动词 时 态 特征 、 查 询 表 达 
式 中 时 间 与 查询 提交 时 间 之 间 差 值 特征 以 及 查询 中 包含 的 
n-Gram 词 元 在 每 个 意图 类 别 中 的 多 项 分 布 特征 ， 再 通过 基 
于 规则 的 投票 方法 融合 各 类 特征 以 此 计算 每 个 查询 在 每 个 
意图 类 别 中 的 分 布 概率 。 

@ 基 于 其 他 时 态 意图 分 类 体系 。Amodeo 等 [是 首先 根据 
查询 中 包含 的 时 态 属 性 将 其 分 为 周期 性 、 部 分 周期 性 、 基 
于 趋势 以 及 随机 4 类, 基于 纽约 时 报 (New York Times ) 数 
Hik, 利用 综合 概率 与 时 间 序 列 的 启发 式 模型 对 查询 进行 
自动 分 类 ， 且 预测 查询 主题 相关 的 将 来 事件 ; Dong FOU 
过 选取 分 类 特征 ,训练 分 类 模型 识别 查询 是 否 与 某 突 发 性 
新 闻 事 件 相 关 ; Styski 等 1 利用 30 个 特征 训练 了 回归 模型 
分 类 器 来 预测 某 查 询 是 否 与 最 新 内 容 相 关 ; Cheng FP 
过 分 析 查 询 词 在 相关 文档 中 的 分 布 变化 判断 查询 是 否 具有 
时 态 意图 。 

(2) 不 给 定 类 目 体 系 的 时 态 意 图 识别 。 即 在 不 给 
定时 态 意 图 类 别 体系 的 情况 下 ,利用 相关 方法 判断 某 
个 查询 与 某 特 定时 间或 某 事 件 相 关 。 相 关 研 究 主要 有 : 
Kanhabua 等 中 在 未 提供 时 态 类 别 的 情况 下 , 将 查询 时 
间 文 档 的 创建 时 间 视 为 该 查询 的 关注 时 间 , 分 别 利 用 
查询 关键 词 、 返 回 结果 中 排序 前 K 的 文档 内 容 及 其 相 
关 时 间 标 记 来 识别 查询 中 包含 的 时 间 信 息 ， 其 中 第 一 
种 方法 是 基于 查询 关键 词 的 语言 模型 , 后 两 种 方法 均 
是 基于 伪 相 关 反 馈 思 想 ; Kanhabua 等 中 从 查询 日 志 与 
外 部 数据 集中 选取 分 类 特征 ,利用 机 器 学 习 方法 判断 
查询 是 否 与 某 事 件 相 关 ; Campos 等 中 分 别 利用 查询 结 
果 片 段 与 Google 和 Yahoo 查 询 日 志 识 别 隐 式 查询 内 容 
的 关注 时 间 ,， 其 实验 结果 表明 利用 查询 结果 片段 的 方 
法 优 于 利用 查询 日 志 的 方法 ; Zhang 等 中 综合 从 查询 
日 志 与 查询 结果 中 选取 特征 训练 分 类 器 识别 查询 是 否 
与 某 周期 性 发 生 的 事件 相关 ; Nguyen 等 9 借助 网 络 文 


档 中 的 锚 文 本 数据 识别 查询 子 主题 所 包含 子 主题 的 日 
期 信息 。 

总 体 来 说 ， 当 前 大 多 数 研 究 者 针对 给 定 类 目 体 系 
下 的 时 态 意 图 识别 的 研究 多 于 不 给 定 类 目 体 系 的 时 态 
意图 识别 研究 。 其 中 , 在 不 给 定 类 目 体 系 下 的 时 间 意 
图 识别 研究 中 ， 基 于 查询 日 志 的 方法 有 助 于 通过 识别 
具有 相似 时 间 模 式 查询 的 时 态 意图 , 但 该 方法 在 大 多 
数 情况 下 只 能 对 高 频 查询 进行 有 效 识别 ,而 对 于 低频 
查询 存在 着 数据 稀 玻 问题 ; 基于 文档 集 的 方法 能 解决 
数据 稀 玻 的 问题 , 但 容易 产生 一 些 噪声 数据 ， 影 响 最 
终 识别 的 准确 度 。 整 体 来 说 ,基于 查询 日 志 与 基于 文 
档 集 方法 各 有 优 缺 点 , 但 在 大 多 数 情况 需 采 用 两 种 方 
TEER TTS Ol, ER BAK AKA T BUSES DART 
识别 研究 中 ,其 最 终 识别 的 准确 度 依 赖 于 对 相关 时 间 
或 者 事件 识别 的 准确 度 。 

3.2 ”查询 动态 子 主题 识别 

对 于 层 义 性 时 态 查 询 来 说 ,用 户 在 不 同时 间 段 所 
感 兴趣 的 子 主题 可 能 不 一 样 ， 如 查询 “汶川 ”用户 可 
能 感 兴趣 的 是 与 汶川 相关 的 人 文 地 理 (汶川 地 震 之 前 ) 
或 汶川 地 震 相 关 新 闻 ( 汶 川 地 震 之 后 )。 因此 , 准确 识别 
用 户 不 同时 段 对 此 类 查询 可 能 感 兴趣 的 主题 显得 尤为 
重要 。 根 据 其 所 依赖 的 数据 集 ， 其 研究 分 为 基于 查询 
日 志 与 基于 文档 的 查询 动态 子 主题 识别 。 

(1) 基于 查询 日 志方 法 的 研究 内 容 

不 同时 间 段 的 查询 子 主 题 识别 。 在 不 同时 间 段 根据 点 
击 信息 、 查 询 之 间 的 语义 相似 度 构建 query-url 二 部 图 ,通过 
相关 遍历 算法 (如 随机 游 走 ) 为 每 个 查询 构建 向 量 ， 再 借助 聚 
类 算法 对 查询 进行 自动 聚 类 ,最 后 将 每 个 类 徐 质 心 作为 该 
查询 的 一 个 子 主题 55 20。 

@) 时 态 意图 变化 趋势 预测 与 建 模 。 利 用 相关 方法 识别 查 
询 周期 性 的 变化 规律 获取 该 查询 的 将 来 时 态 意图 : 如 
Metzler 等 种 根据 查询 词 与 时 间 限 定 词 在 查询 日 志 中 的 共 现 
识别 周期 性 查询 ; Shokouhi "根据 查询 日 志 中 历史 频率 分 
布 ,利用 时 间 序 列 方法 判断 该 查询 是 否 是 周期 性 查询 ; 
Radinsky 等 SS 基于 用 户 历史 行为 数据 , 提出 一 种 DML 学 习 
算法 (Dynamics Model LearnenD 识 别 与 预测 用 户 意图 变化 的 
趋势 、 周 期 性 及 嗓音 。 

(2) 基于 文档 集 方法 的 研究 内 容 

人 借助 查询 在 不 同时 间 段 返回 的 文档 集 来 挖 据 其 可 能 
的 潜在 子 主题 ,如 Nguyen 等 565 尝试 利用 LDA(Latent 
Dirichlet Allocatiom) 模 型 从 查询 相关 文档 中 进行 潜在 主题 分 
析 ， 以 此 识别 该 查询 的 动态 子 主 题 ; Gupta FOF AA A 
一 元 检索 模型 为 每 个 查询 返回 排名 前 K 的 文档 构建 伪 相 关 
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文档 集 ， 再 利用 伪 相 关 文 档 的 出 版 日 期 与 文档 内 容 中 的 日 
期 表达 式 构 建生 成 模型 识别 该 查询 不 同 粒度 (如 年 、 月 、 日 ) 
的 时 间 段 中 用 户 所 感 兴趣 的 内 容 ; Dakka 等 1 提出 利用 文 
档 的 发 布 时 间 识 别 隐 式 查询 可 能 感 兴趣 信息 的 时 间 段 。 

加 通过 挖 气 Wikipedia 层级 结构 识别 查询 随时 间 所 包含 
的 潜在 主题 , 如 Whiting 等 J 指出 包含 时 间 了 驱动 主题 的 查询 
包含 高 度 可 变 的 子 主题 , 提出 从 由 Wikipedia 层级 结构 构建 
的 结构 化 数据 中 识别 查询 中 所 包含 的 可 能 子 主 题 ; Zhou 等 
通过 统计 用 户 浏 览 Wikipedia 消 歧 网 页 次 数 随 时 间 变 化 情况 
分 析 查 询 子 主题 的 时 间 动 态 性 ， 再 利用 计算 机 仿真 探讨 查 
询 子 主题 动态 对 多 样 化 评价 的 影响 。 

总 体 来 说 ， 相 对 时 态 意 图 识别 研究 来 说 ,目前 查询 
动态 子 主题 识别 研究 比较 少 , 其 中 , 在 基于 日 志方 法 中 ， 
时 态 意图 变化 趋势 预测 研究 只 能 预测 周期 性 变化 查询 
的 意图 ， 还 缺乏 对 非 周期 性 变化 查询 意图 的 预测 研究 ; 
在 基于 文档 集 方 法 中 , 如 何 能 获得 有 效 的 能 表征 查询 
时 态 属 性 的 文档 集 是 该 研究 中 关键 问题 之 一 。 


4 时 态 感知 排序 


文档 排序 是 检索 系统 最 核心 的 部 分 , 在 很 大 程度 
上 决定 了 检索 系统 的 质量 好 坏 与 用 户 满 意 度 。 与 一 般 
检索 系统 排序 不 同 的 是 ,时 态 信息 检索 需 将 文档 与 查 
询 中 的 时 态 信息 融合 到 检索 排序 模型 中 。 综 合 已 有 研 
究 ， 时 态 检索 排序 方法 主要 分 为 近 因 敏 感 排序 与 时 间 
依赖 性 排序 两 类 09。 
4.1 近 因 敏感 排序 

近 因 敏感 排序 (Recency-based Ranking) 的 目的 是 
为 查询 返回 最 新 文档 集 ， 即 在 主题 同等 相关 的 条 件 下 ， 
越 新 的 文档 排序 越 靠 前 。 其 研究 方法 主要 有 三 类 : 

(1) 融合 文档 新 新 性 的 排序 模型 。 现 有 的 代表 性 
工作 是 将 时 间 信息 作为 文档 先 验 概率 融入 统计 语言 检 
索 模型 。 作 为 近 因 排 序 算法 的 最 早 研 究 者 ，Li 等 的 在 
扩展 一 般 语言 模型 [基础 之 上 提出 了 时 间 语 言 模 型 ， 
即 在 考虑 文档 先 验 概率 PORT, 不 同 创建 时 间 文 档 的 
权 值 P(dlTq) 不 同 , 越 是 最 新 文档 其 权 值 越 高 ; Efron 等 外 
扩展 了 Li 等 的 的 研究 工作 , 认为 指数 分 布 参数 在 不 同 
查询 背景 下 取 值 不 一 样 , 故 提出 了 基于 查询 的 语言 模 
型 ， 且 该 模型 在 TERC 和 微 博 数据 上 取得 了 更 优 的 结 
果 ; Jatowt 等 (假设 被 频繁 更 新 的 文档 更 有 可 能 包含 
新 新 内 容 ， 故 在 主题 相关 性 一 致 的 情况 下 , 被 频繁 更 新 
或 更 新 幅度 较 大 的 文档 更 有 可 能 排名 靠 前 ; Elsas 等 
为 探讨 文档 动态 性 与 相关 性 排序 之 间 的 关系 ， 先 根据 
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词 的 时 间 属 性 对 其 加 权 , 再 利用 语言 模型 进行 文档 排 
FR, 其 实验 结果 表明 该 方法 有 助 于 导航 类 检索 性 能 的 
提升 ; Aji 等 9 提出 一 种 新 的 词 加 权 模 型 即 校 正 历史 分 
析 (Revision History Analysis, RHA) 模 型 , 在 该 模型 中 
查询 词 权 值 与 该 词 出 现在 文档 不 同 版 本 中 次 数 相关 ， 
且 设 定 该 词 出 现在 较 老 版 本 中 权 值 高 于 出 现在 较 新 版 
本 中 的 权 值 ， 然后 将 RHA 模型 应 用 到 BM25 与 生成 统 
计 语 言 模型 中 对 文档 进行 排序 ; Nguyen 等 中 在 已 有 查 


将 时 间 段 信息 融合 到 排序 模型 。 研 究 内 容 主 要 包括 ; 
融合 时 态 表 达 式 的 排序 模型 、 时 态 多 样 化 检索 与 特定 
类 型 信息 中 时 间 信息 排序 。 

(1) 排序 模型 中 融合 时 态 表 达 式 的 相关 研究 有 : 
Arikan 等 !9 从 1997 年 至 2000 年 的 Wikipedia 数据 集 
文档 中 抽取 与 查询 词 相关 的 时 态 表 达 式 并 将 其 融合 到 
语言 模型 中 , 该 方法 的 核心 是 计算 如 何 从 文档 查询 表 
达 式 中 生成 查询 中 时 态 表达 式 ; Berberich 等 "分 别 利 


询 多 样 化 排序 的 基础 上 提升 最 新 文档 的 权重 ， 以 此 实 
现 近 因 人 敏感 的 多 样 化 排序 ; Daizk” 通 过 融合 一 些 新 闻 
网 页 内 容 实现 近 因 敏感 检索 问题 。 

(2) 基于 网 络 中 文档 链接 结构 的 排序 模型 Berberich 
等 [0 基于 链接 分 析 , 提出 T-Light 与 T-Rank 两 种 排序 方 
法 , 这 两 种 方法 均 利 用 网 页 的 新 颖 度 ( 即 最 近 更 新 文档 
的 时 间 标 识 ) 与 更 新 频率 来 检索 最 新 文档 ; Cho 等 "为 
解决 PageRank 算 法 中 无 法 提高 新 创建 网 页 权 值 的 问题 ， 
通过 分 析 网 络 链接 结构 与 分 析 其 结构 演化 情况 提出 一 
种 新 的 排序 方法 ; Li ESS SURE CP TIN TB], 为 
PageRank 设置 非 固定 的 阻尼 因子 ; Zhang ^U? HE HE XC 
档 的 标题 URL 以 及 锚 文本 中 出 现 了 最 新 时 态 特征 ， 则 
这 些 文档 应 该 赋予 更 高 的 权 值 ; Dai 等 (所 根据 网 页 随时 
间 的 变化 性 以 及 被 链接 网 页 的 新 颖 性 来 衡量 网 页 的 权 
威 性 , 并 将 这 些 信息 融合 到 时 间 排 序 概率 模型 中 ; 

(3) 基于 机 器 学 习 的 排序 模型 。 首 先 通过 人 工 标 
注 查询 及 其 与 之 相关 的 文档 集 ( 即 query-url 对 ), 根据 
查询 与 文档 之 间 的 相关 性 级 别 为 每 个 query-url 标注 相 
关 的 相关 性 分 数 ， 这 些 相 关 性 分 数 将 作为 排序 学 习 模 
型 最 终 的 分 类 类 别 , 最 后 选取 分 类 特征 表示 每 个 
query-url 对 , 训练 分 类 模型 预测 结果 相关 性 分 数 : Dong 
等 BI 首先 识别 出 近 因 敏感 查询 , 通过 选取 近 因 相关 特 
征 ( 如 时 间 标 识 相关 特征 、 链 接 相 关 特 征 、WebBuzz 相 
关 特 征 与 网 分 类 相关 特征 ) 训 练 分 类 模型 对 近 因 查询 的 
结果 进行 排序 , 而 对 非 近 因 查 询 采 取 男 外 的 排序 方法 ; 
与 以 上 方法 不 同 的 是 ，Dai 等 "5 首先 通过 伪 相 关 反 馈 思 
想 为 每 个 查询 构建 时 间 伪 文档 , 再 根据 每 个 查询 时 间 
伪 文 档 信息 为 文档 赋予 不 同 权 值 ， 该 方法 降低 了 因 意 
图 识别 的 不 准确 性 给 最 终 实 验 结果 造成 的 影响 。 
4.2 时间 依赖 性 排序 

时 间 依 赖 性 排序 (Time-dependent Ranking) 的 目的 
是 为 查询 返回 不 同时 间 段 的 文档 , 其 核心 技术 是 如 何 


EB 数据 分 析 与 知识 发 现 


用 纽约 时 报 (New York Time) 的 标注 语 料 (1987 年 -2007 
年 ) 以 及 Wikipedia(2009) 数 据 集中 的 时 态 表 达 式 ， 再 将 
其 融合 到 查询 似 然 语言 模型 中 ， 即 查询 中 的 文本 和 时 
间 部 分 分 别 由 文档 中 的 文本 和 时 间 部 分 独立 地 生成 ; 
Brucato 等 i 在 不 借助 任何 概率 模型 的 情况 下 , 通过 
计算 查询 与 文档 之 间 关 键 词 相似 性 来 融合 查询 与 文档 
之 间 的 时 间 相似 性 实现 时 间 信 息 检索 ; Jin 等 "通过 线 
性 插值 三 因素 (文本 相似 度 、 时 间 相 似 度 和 网 页 重要 
性 ) 对 查询 结果 进行 排序 ， 其 中 文本 相似 度 主要 考虑 查 
询 出 现在 文档 集中 的 频率 以 及 位 置 , 时 间 相 似 度 表示 
查询 中 时 间 与 文档 集中 时 间 的 交集 ， 网 页 重要 性 通过 
PageRank 算法 计算 ; Metzler 等 中 从 查询 日 志 中 识别 出 
查询 可 能 包含 的 年 份 限制 , 通过 计算 查询 与 文档 中 时 
间 相 似 性 实现 排序 ; Kanhabua 等 "借助 纽约 时 报 标 注 
语 料 (1987 年 -2007 年 ) 提 出 基于 学 习 排 序 (Learning-to- 
Ranlo 技 术 的 时 间 敏 感 排序 模型 ， 为 训练 该 模型 提出 
了 基于 时 间 与 实体 的 两 类 特征 ,最 终 实验 结果 表明 
SVM MAP Learning-to-Rank 模型 优 于 Berberich 等 提 
出 的 方法 "7 Chang 等 5 利用 从 查询 日 志 中 获取 的 用 
户 时 间 点 击 信息 , 根据 用 户 在 不 同时 间 段 的 意图 实现 
对 查询 结果 进行 重 排序 ; Costa 等 吧 提 出 时 间 相 关 的 排 
序 模型 ， 即 首先 识别 出 为 期 14 年 的 网 页 数据 集 可 能 
及 到 的 时 间 区 间 ， 且 为 每 个 时 间 区 间 构 建 一 系列 查询 
-文档 特征 向 量 , 再 为 每 个 时 间 区 间 训 练 相关 排序 模 
7]. Alonso 等 四 提出 根据 查询 出 现在 显 式 、 隐 式 与 相 
对 时 间 表 达 式 中 的 频率 对 某 个 类 簇 文 档 进行 排序 ; 
Strótgen 等 鸡 提 出 利用 BM25 模型 融合 查询 中 情景 、 
时 间 与 地 理 因素 在 某 文档 中 的 距离 为 文档 进行 排序 ; 
Mishra 等 8 通过 计算 地 理 与 时 间 表达 式 在 查询 最 初 返 
回 结果 中 的 次 数 对 查询 结果 进行 重 排序 。 

(2) 时 态 多 样 化 检索 的 相关 研究 有 : NTCIR-12 
Temporalia 任务 中 设立 了 时 态 多 样 化 检索 (Temporal 


Diversified Retrieval) 子 任务 , 其 任务 目标 是 , 给 定 一 
个 查询 主题 , 要 求 参 与 者 返回 与 查询 主题 和 四 大 时 态 
意图 (当前 、 过 去 、 将 来 与 非 时 间 ) 相 关 的 文档 集合 , 其 
相关 研究 有 , Gupta 等 7 首先 利用 伪 相 关 文 档 方 法 识 
别 查 询 中 可 能 包含 的 潜在 时 间 段 , 再 将 每 个 时 间 片 段 
作为 查询 结果 可 能 的 分 面 , 再 借助 概率 模型 实现 查询 
结果 多 样 化 ; Hou 等 中 根据 文档 与 每 个 查询 时 态 子 主 
题 的 相关 性 分 数 以 及 文档 中 时 态 表 达 式 与 时 态 意 图 相 
关 性 进行 时 态 多 样 化 排序 ; Fernando ERHI HE 
序 方 法 实现 时 态 多 样 化 检索 ,其 中 ,所 选取 的 查询 - 文 
档 特征 主要 包括 : 文档 中 动词 时 态 特 征 、 文 档 与 查询 
的 主题 相关 度 以 及 文档 与 每 个 时 态 意图 类 别 中 时 态 信 
息 相 关 性 分 数 特 征 等 。 

(3) 特定 类 型 信息 中 时 间 信 息 排序 的 相关 有 : 
Pascal 构建 了 一 个 时 间 问 答 系 统 ，Strotgen ^P yk HE 
序 模型 中 综合 考虑 文本 、 时 间 与 地 理 查 询 词 在 文档 之 
间 的 距离 使 得 查询 结果 满足 用 户 时 间 与 地 理 的 需求 ; 
在 时 间 图 片 检索 中 , Dais 等 中 首先 利用 Ephemeral X 
类 方法 对 网 络 搜索 引擎 返回 结果 进行 聚 类 ,查询 扩展 
相关 时 间 ， 再 利用 扩展 后 的 查询 进行 图 片 检索 ， 基 于 
图 片 视觉 特征 训练 分 类 模型 ， 对 返回 的 图 片 进 一 步 筛 
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选 出 特定 时 间 区 间 的 图 片 ; Kim 等 中 尝试 从 Flickr 数 
据 集中 抽取 图 片 的 时 间 模 式 ( 如 图 片 的 拍摄 时 间 ) 对 图 
Hat HIE; Efron eger] ot bee], 采用 查询 依 
赖 的 语言 模型 将 时 间 属 性 融合 到 文档 排序 中 , 利用 统 
计生 存 分 析 (Survival Analysis) 中 局 部 最 大 似 然 估 计 参 
数 ; 卫 冰 洁 等 中 在 实现 时 间 感 知 的 微 博 检 索 中 , 在 假 
设 “ 越 靠近 热门 时 刻 , 文档 越 重 要 ”基础 上 提出 基于 热 
门 时 刻 的 4 个 系列 模型 (HTIMs)。 

从 以 上 研究 可 以 看 出 , 学 界 已 对 时 态 感 知 排序 模 
型 进行 了 大 量 探讨 且 取 得 了 一 定 成 果 , 且 设 立 了 与 时 
态 信息 检索 相关 的 评测 平台 ,具体 信息 如 表 1 所 示 。 
尽管 如 此 ， 当 前 时 态 信 息 检 索 模型 还 存在 着 如 下 问题 : 
实验 的 可 重复 性 较 低 ， 从 以 上 内 容 可 以 看 出 , T-IR 模 
型 测试 的 主要 数据 集 Wikipedia 与 新 闻 数 据 集 ， 因 这 些 
数据 集 具有 流动 性 , 故 针 对 在 不 同时 间 段 的 数据 集 , 检 
索 模 型 中 所 调节 的 参数 值 会 存在 着 差异 性 ; 大 多 数 检 
索 模 型 都 假设 查询 中 词 是 相互 独立 的 , 而 忽略 了 查询 
中 词 在 特定 时 间 段 内 的 依赖 性 , 影响 了 最 终 排 序 的 准 
确 度 ; 最 终 排序 结果 只 能 满足 查找 当前 或 者 某 时 间 段 
言 息 的 需求 ， 而 难以 满足 用 户 在 更 细 时 态 粒 度 ( 如 某 具 
体 日 期 或 具体 时 刻 ) 中 的 特定 需求 。 


与 TIR 相关 的 主要 评测 平台 


相关 会 议 名 称 会 议 主 要 任务 数据 集 内 容 


数据 集 时 间 跨 度 实验 结果 评价 指标 


与 实体 相关 事件 的 
识别 ; 时 态 性 问答 ; 
时 态 临 床 信息 抽取 ; 


空间 信息 识别 等 


新 闻 、 论 文 、 维 基 
百科 、 博 客 与 临床 
数据 集 


SemEval 2015 时 间 与 空 
间 任 务 (SemEval 2015 - 
Time and Space Track)” 


TREC 知识 库 扩展 
数据 集 (TREC KBA 
Stream Corpus): 


TREC 时 态 摘要 任务 
(TREC Temporal 
Summarization Track)? 


提取 某 事件 相关 的 
实时 性 摘要 信息 


HAY SCA 
EN 通过 时 态 排序 筛选 
名 识 资源 扩展 任 n 
FORCE dM E ASMER TREC 知识 库 扩展 
Base Acceleration fe 关 的 文档 ， 并 以 此 BSE (TREC KBA 
" ”来 扩展 知识 资源 (如 Stream Corpus) 
KBA) des 
Wikipedia) 


来 自 于 新 闻 或 者 其 他 
社交 媒体 中 带 有 时 间 


4 


F1 fR(Fl-score), H E% (Recall) HE 


(Precision) 


1960 年 -2014 年 


( 归 一 化 ) 期 望 获 益 指标 mEG(S))、 全 面 性 
指标 (Comprehensiveness Metric, C(S))、 期 
望 延迟 指标 (Excepted Latency Metric, 
E[latency]) 及 综合 以 上 三 类 评测 指标 的 归 
一 化 期 望 延 迟 获 益 的 调和 平均 值 指标 
(Harmonic Mean of normalized EL, EG,(S)) 
与 延迟 全 面 性 性 指标 (Latency 


Comprehensiveness, C, (S)) 


2011 年 10 H- 
2013 年 2 月 中 名 


2011 年 10 H- 
2013 年 2 月 中 名 


F 1 准确 度 指标 (F_1 Accuracy) 与 Scaled 
Utility 指标 


CDhttp://alt.qcri.org/semeval2015/index.php?id-tasks. 
@http://trec.nist.gov/pubs/call2016.html. 
@)http://trec-kba.org/. 
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( 续 表 ) 
相关 会 议 名 称 会 议 主 要 任务 数据 集 内 容 数据 集 时间 跨 度 实验 结果 评价 指标 
时 态 意图 消 歧 英文 数据 集 : 由 
(Temporal Intent LivingKnowledge T MM TEUER ; 
Disambiguation: 项 目 创建 的 " " TID 子 任务 的 评测 指标 : 平均 每 类 别 的 绝 
TID): 时 态 信息 “LivingKnowledge 英文 数据 集 : 2011 年 对 损失 (Averaged Per-class Absolute Lose) 
NTCIR 时 态 信息 获 取 任 检索 上 ien 新 闻 和 博客 标注 子 5 月 -2013 年 3 月 ; = 与 平均 余弦 相似 度 (Averaged Cosine 
务 (NTCIR Temporal s c "e ii 中 文 数据 集 : SogouCA, Similarity); 
Information Access A T 2012 年 6 H-2013 年 TIR 子 任务 的 评测 指标 : P@20、 
Ma Retrieval, TIR) 中 文 数据 集 : Sogou du t 
Temporalia ) 时 态 多 样 化 检索 全 网 新 闻 数 据 集 7 H; SogouT, 2008 年 nDCG@20 与 Q@20 指标 ; 
ia RR i 11 H TDR 子 任务 的 评测 指标 : a-nDCG 与 
(Temporally (SogouCA) 与 Sogou D#nDCG 指标 
Diversified Retrieval: 互联 网 语料库 i 9o 
TDR) (SogouT) 
TREC 微 博 任务 中 Tweet 
时 间 表 生成 任务 (Tweet 返回 在 时 间 点 t 之 前 TREC 微 博 数据 集 聚 类 准确 率 (Cluster Precision))、 加 权 聚 类 
TimeLine Generation 与 查询 Q 相关 Tweet (TREC Microblog 2014 年 召回 率 (Weighted Cluster Recall) 与 非 加 权 


Task of the TREC 的 摘要 信息 


Microblog Track: TTG) 2 


Dataset) 


RKA [=] 28 (Unweighted Cluster Recall ) 


5 结 i& 


本 文 详细 介绍 了 时 态 信息 检索 中 文档 中 时 态 信息 
抽取 、 查 询 中 时 态 信息 识别 与 时 态 感知 排序 等 核心 问 
题 , 从 综述 中 可 以 看 出 , 经 过 多 年 努力 , 时 态 信息 检索 
取得 了 较 大 进展 , 但 该 领域 仍 存在 着 如 下 问题 和 挑战 : 
国外 对 时 态 检索 研究 比较 多 ， 而 国内 的 相关 研究 甚 少 ; 
文档 关注 时 间 的 识别 仅 停 留 在 对 隐 式 、 隐 式 与 相对 时 
态 表达 式 的 抽取 与 排序 ， 而 通过 考虑 实体 和 事件 信息 
表达 文档 来 抽取 关注 事件 的 研究 存在 不 足 ; 缺乏 对 非 
周期 变化 查询 将 来 意图 预测 的 相关 研究 ; 根据 流动 性 
数据 集 检索 模型 构建 实验 的 可 重复 性 实验 较 低 ， 且 缺 
乏 对 TIR 检索 模型 进行 评价 的 统一 评测 平台 .基于 此 ， 
时 态 信 息 检索 未 来 的 可 能 发 展 方向 包括 : 构建 标准 化 
的 评测 数据 集 , 便于 对 各 检索 模型 进行 有 效 对 比分 析 ; 
构建 无 参数 时 态 信 息 检索 模型 ， 便 于 提高 检索 模型 在 
各 实验 数据 集中 的 可 重复 性 研究 ; 时 态 检 索 结 果 的 可 
视 化 , 便于 用 户 理解 信息 随时 间 变 化 规律 ， 及 时 发 现 
所 需 信息 ; 实现 将 来 时 间 信 息 检索 ,以 此 预测 规律 或 
非 规律 变化 事件 的 未 来 趋势 (如 某 电影 何 时 会 流行 、 自 
然 灾害 何 时 发 生 ) 有 助 于 决策 支持 ; 时 态 信息 在 信息 
检索 其 他 研究 领域 的 应 用 ， 如 时 态 多 样 化 检索 、 时 态 - 
空间 信息 检索 、 时 态 问答 系统 以 及 基于 时 态 信息 的 检 
索 结 果 自 动 摘 要 与 聚 类 。 


Dhttps://sites.google.com/site/ntcirtemporalia/. 
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Reviews on Temporal Information Retrieval 


Zhang Xiaojuan Han Yi 
(School of Computer and Information Science, Southwest University, Chongqing 400715, China) 


Abstract: [Objective] This study aims to summarize the research status of temporal information retrieval (T-IR) and to 
provide theoretical basis for the study of the relevant scholars to better grasp the T-IR problems. [Coverage] We first 
used Google Scholar to search related literatures by typing the keywords “termporal information retireval" in Chinese 
and English repectively, without time limit. After getting some related literatures, we further used the retrospective 
method to get more related literatures. Finally, we get 92 literatures totally. [Methods] Based on method of literature 
survey and methods of inducting and summarizing, a survey of the existing literature on temporal information retrieval 
was presented from the following three aspects: extracting temporal information from document, identifying temporal 
information in queries and temporal ranking model. [Results] The problems and challenges existing in temporal 
information retrieval are as follows: little related work existing in China while most of related work existing in foreign 
countries; lack of methods of data collection and data indexing reflecting dynamic characteristics of real network; 
ignorance of the important role of the entity and event represent time information when identify the focus time of 
document; lack of the predicting intent for non-periodic queries and the improvement of reproducibility of temporal 
information retrieval model experiment to be needed. [Limitations] This paper did not review the document crawling, 
document index and corresponding application of temporal information retrieval. [Conclusions] The construction of 
standardized evaluation datasets and non-parameter temporal information retrieval models will be the future research 
trends of T-IR. 


Keywords: Temporal Information Retrieval Temporal Information Temporal Intent Temporal Ranking 


Jisc 研究 数据 共享 服务 选择 Preservica 数字 保存 平台 


Preservica 于 近日 宣布 ， 其 数字 保存 平台 已 被 选 为 面向 英国 高 等 教育 机 构 (Higher Education Institutions, HEIS) 的 Jise 研究 
数据 共享 服务 (Research Data Shared Service, RDSS) 试 验 阶 段 框架 的 一 部 分 。 这 一 新 的 研究 数据 共享 服务 将 整合 多 家 内 容 提供 
商 的 内 容 ,允许 英国 的 大 学 和 其 他 高 等 教育 机 构 轻 松 存 取 数据 ， 以 便 对 其 进行 出 版 、 发 现 、 安 全 存储 ,以 及 长 期 保存 。 该 服 
务 的 最 终 目标 是 确保 有 价值 的 研究 数据 的 长 期 可 访问 性 , 使 其 能 够 在 大 学 之 间 得 到 重复 利用 和 共享 。 

该 项 目 涉及 17 个 试点 高 等 教育 机 构 ， 有 大 型 的 、 研 究 密 集 型 机 构 ， 也 有 小 型 的 专科 院 所 。Preservica 将 与 Jise 和 这 些 试 
点 教育 机 构 一 起 合作 开发 一 个 新 的 管理 系统 旨 在 减轻 机 构 信 息 技术 人 员 和 采购 人 员 的 负担 。 除 此 次 合作 之 外 , Preservica 也 
向 美国 的 几 所 大 学 (包括 耶鲁 大 学 )， 以 及 英国 的 曼彻斯特 大 学 提供 数字 保存 服务 。 

Preservica 的 数字 保存 平台 能 有 效 保护 数字 信息 ,确保 文件 格式 不 会 过 时 , 数字 记录 可 以 方便 地 用 于 科学 研究 。Jisc 发 起 
该 项 目的 主要 目的 之 一 是 为 了 满足 资助 者 的 相关 政策 , 实现 研究 数据 管理 的 良好 实践 , 汇集 有 益 资源 。 

“我 们 很 高 兴 Preservica 成 为 我 们 的 研究 数据 共享 服务 框架 和 试点 流程 的 一 部 分 ,”Jise 首席 创新 官 Rachel Bruce 表示 : 
“Preservica 为 我 们 的 项 目 带 来 了 他 们 在 数字 保存 方面 多 年 的 经 验 ， 有 助 于 我 们 建立 一 个 完全 集成 的 系统 ,Preservica 已 经 成 功 
为 几 所 大 学 提供 了 数字 保存 功能 , 很 高 兴 他 们 成 为 我 们 项 目的 一 部 分 。” 

Jisc 将 会 采购 研究 数据 管理 服务 和 咨询 服务 , 来 支持 科研 机 构 的 个 人 研究 数据 管理 要 求 。 该 项 目的 重点 是 提供 一 个 直观 
的 用 户 界 面 , 确保 人 研究 数据 很 容易 找到 ,同时 ,支持 机 构 和 外 部 研究 系统 之 间 的 互 操作 性 。 

(编译 自 : https:;//librarytechnology.org/news/pr.pl?id-22118) 
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